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基于 文本 挖掘 与 复杂 网 络 的 我 国 绿色 消费 领域 
研究 主题 挖掘 
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摘 要 :[ 目 的 /意义 ]“ 发 展 绿色 消费 ”是 我 国 “ 十 四 五 ”规划 和 2035 年 远景 目标 纲要 的 重要 内 容 
之 一 。 针 对 绿色 消费 领域 研究 主题 的 挖 据 ， 有 助 于 快速 了 解 当 前 该 领域 的 研究 进展 和 热点 ， 为 进一步 研 
究 提 供 参 考 和 指导 。[ 方法 /过 程 ] 基于 文本 挖掘 技术 和 复杂 网 络 分 析 方 法 ， 提 出 “综合 考虑 文献 标题 、 
摘要 和 关键 词 ， 采 用 文本 分 词 技术 提取 文献 主题 词 ， 并 基于 AHP 法 确定 二 元 主题 词组 共 现 权重 ”的 方法 ; 
针对 传统 词 频 g 指数 无 法 有 效 排除 “高 频 泛 词 ”的 情况 ， 基 于 TF-IDF 算法 对 传统 词 频 g 指数 进行 优化 ， 
提出 TI-g 指数 ; 对 2010~2022 年 我 国 绿色 消费 领域 学 术 文献 进行 实证 研究 。[ 结果 /结论 ] 绘制 了 2010 
年 以 来 我 国 绿色 消费 领域 研究 主题 演进 热力 图 ， 并 对 2018 年 以 来 研究 热点 进行 挖 据 ， 识 别 出 该 领域 研究 
的 4 大 主题 域 。 
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绿色 消费 研究 起 源 于 20 世纪 70 年 代 ，1987 年 ， 英 国学 者 Elkington 和 Hailes 将 绿色 消费 定 
义 为 “为 避免 使 用 “危害 健康 、 资 源 浪费 、 过 度 包 装 、 出 自 稀 有 动物 或 自然 资源 的 商品 ， 以 及 对 
他 国 ， 尤 其 是 发 展 中 国家 不 利 的 商品 ”的 消费 行为 7”。 世 界 环 保 组 织 则 提出 绿色 消费 的 5R 原 
WJ, BH Reduce, Reevaluate, Reuse, Recycle, Rescue !21。 严 格 来 说 ， 学 术 界 并 未 对 绿色 消费 的 概念 
形成 统一 的 定义 。 广 义 层 面 ， 一 般 认 为 绿色 消费 是 在 商品 购买 、 使 用 和 废 置 处 理 的 全 流程 中 产生 
的 减少 浪费 、 避 免 污染 等 行为 ; 而 狭义 层面 ， 绿 色 消 费 则 更 加 侧重 于 绿色 商品 购买 行为 本 里 '31。 


* 本 文系 四 川 省 社会 科学 重点 研究 基地 四 川 省 电子 商务 与 现代 物流 研究 中 心 课题 ““ 十 四 五 ”背景 下 电 商 消费 者 绿色 购买 意愿 
与 行为 研究 ”( 项 目 编号 : DSWL21-37 )、 中 国 高 等 教育 学 会 年 度 规划 重点 课题 “大 数据 专业 知识 图 谱 构 建 与 智能 问答 平台 研究 ” 
( 项目 编 号 : 22SZH0305 ) 的 研究 成 果 之 一 。 

[ 作者 简介 ] 刘 杰 平 (ORCID: 0009-0002-7079-7089) ， 男 ， 系 副 主任 ， 副 教授 ， 硕 士 ， 研 究 方向 为 大 数据 分 析 、 数 据 挖 气 ， 
Email: liujieping(nsu.edu.cn; AE (ORCID: 0009-0007-2669-0483 ) ， 男 ， 副 院 长 ， 副 教授 ， 博 士 ， 研 究 方向 为 数据 库 、 
动力 系统 、 深 度 学 习 等 ，Email: xujinya(nsu.edu.cn. 
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随 着 我 国 公 民 绿色 环保 意识 的 不 断 加 强 ， 绿 色 消 费 理念 得 到 广泛 的 传播 和 认可 。 根 据 《 中 
国 公众 绿色 消费 现状 调查 研究 报告 》，83.34% 的 受 访 者 表示 支持 绿色 消费 行为 ， 其 中 46.75% 的 
受 访 者 表示 “非常 支持 ”'41。 中 国 连续 经 营 协 会 与 阿里 新 服务 研究 中 心 研究 认为 ，60% 以 上 的 
受 访 者 知晓 绿色 消费 ， 其 中 ，00 后 、90 后 对 绿色 消费 的 认 知 明显 高 于 其 他 年 龄 段 ， 分 别 达 79% 
和 70% 55。 在 国务 院 2013 年 印发 的 《循环 经 济 发 展 战略 及 近期 行动 计划 》 中 ， 将 “绿色 消费 ” 
作为 推进 社会 层面 循环 经 济 发 展 的 一 项 重要 措施 。2014 年 ， 李 克 强 总 理 在 国务 院 常 务 会 议 中 提 
出 要 促进 绿色 消费 ， 扩 大 节能 产品 生产 '51。 至 今 ， 我 国 已 出 台 了 一 系列 与 绿色 消费 相关 的 制度 、 
计划 、 标 准 等 。2021 年 ,“ 发 展 绿色 消费 ”被 写 人 “十 四 五 ”规划 和 2035 年 远景 目标 纲要 中 T], 
作为 我 国 未 来 发 展 的 战略 之 一 。 

随 着 公众 绿色 消费 意识 的 增强 以 及 各 级 政府 对 绿色 环保 的 重视 ， 学 术 界 对 绿色 消费 也 进行 了 
大 量 的 研究 ， 积 累 了 大 量 的 研究 成 果 。 为 了 更 好 地 推动 绿色 消费 研究 ， 助 力 我 国 绿色 消费 战略 实 
施 ， 需 要 对 该 领域 既往 的 研究 成 果 进 行 综合 分 析 ， 梳 理 近年 来 该 领域 的 研究 主题 演进 路 线 以 及 当 
前 的 研究 热点 ， 分 析 该 领域 研究 存在 的 问题 ， 以 便 更 好 地 推动 该 领域 的 研究 。 本 文 研究 发 现 ， 在 
绿色 消费 领域 研究 主题 的 分 析 方面 ， 相 关 人 研究 主要 集中 在 理论 探讨 和 定性 分 析 上 ， 缺 少 对 研究 主 
题 现状 和 趋势 的 总 结 和 定量 分 析 '*。 此 外 ,已 有 文献 主题 挖 扎 技 术 还 存在 研究 对 象 单一 、 高 频 
主题 词 选取 方法 主观 或 无 法 有 效 排除 高 频 泛 词 等 问题 3。 因此 ， 本 文 基于 文本 挖 气 技术 和 复杂 
网 络 分 析 方 法 ， 以 2010-2022 年 我 国 绿色 消费 领域 学 术 文献 为 研究 对 象 ， 对 该 领域 研究 主题 进行 
挖掘， 梳理 出 该 领域 研究 主题 演进 路 线 以 及 当前 的 研究 热点 ， 识 别 出 该 领域 研究 的 4 大 主题 域 ， 
并 针对 各 主题 域 研究 存在 的 不 足 ， 提 出 绿色 消费 领域 未 来 可 能 的 研究 方向 以 及 研究 方法 的 改进 。 
此 外 ， 针 对 同类 文献 主题 挖掘 技术 存在 的 不 足 ， 提 出 了 优化 措施 和 改进 建议 ， 本 文 的 研究 思 
框架 ， 以 及 关键 技术 ， 亦 可 为 其 他 领域 文献 挖掘 提供 借鉴 。 


1 相关 研究 


复杂 网 络 ( Complex Network ) 源 自 20 世 纪 80 年 代 美 国 圣 菲 研究 所 (Santa Fe Institute, 
SFI) 提出 的 复杂 性 科学 领域 "i,。 复 架 网 络 是 由 多 个 节点 构成 的 高 度 复杂 的 关系 网 络 ， 真 


实 的 复杂 网 络 一 般 具有 自 组织 和 小 世界 等 特性 。 复 杂 网 络 理 论 可 以 描述 和 人 研究 复杂 系统 及 
其 拓扑 结构 ， 自 提出 以 来 ,复杂 网 络 分 析 方 法 已 被 广泛 应 用 于 各 种 复杂 系统 研究 1， 如 和 人 


才 流 动 网 SI、 交通 网 i181I、 电 力 网 i9201、 人 金融 网 '*?1、 疾 病 传播 '31、 和 与 情 传播 51、 
文献 挖掘 715g, 

文献 研究 的 主题 域 与 复杂 网 络 的 社区 特性 类 似 ， 因 此 ， 复 杂 网 络 也 被 广泛 应 用 于 文献 挖掘 
领域 ， 成 为 文献 挖掘 的 三 大 类 方法 之 一 ?34。 如 Holeab C 等 提出 一 种 基于 语义 和 网 络 分 析 相 
结合 的 复杂 文献 挖掘 方法 ， 对 面向 未 来 的 技术 分 析 (Future-oriented Technology Analysis, FTA ) 
学 科 的 研究 趋势 进行 了 分 析 7. Wang Y 等 基于 复杂 网 络 理论 对 Scopus 数据 库 中 的 文献 进行 挖 
掘 ， 定 量 描述 了 国际 人 才 流 动 的 显著 特征 7. Ortega J 等 通过 对 GSC ( Google Scholar Citations ) 
中 的 文献 进行 挖 气 ， 发 现 美国 在 世界 科学 地 图 上 占据 主导 地 位 1M。Chae C 等 对 韩国 人 力 资 源 
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管理 研究 的 语义 网 络 结构 进行 关键 词 网 络 分 析 ， 表 明 韩 国人 力 资源 管理 的 整个 网 络 结构 具有 复 
杂 的 社会 建构 语义 结构 '”1。 辛 娟 娟 等 基于 复杂 网 络 的 社区 识别 技术 ， 对 林业 领域 文献 进行 了 人 研 
究 ， 识 别 出 八 大 主题 研究 领域 。 刘 俊 楠 等 以 测绘 期 刊 为 研究 对 象 ， 对 测绘 领域 研究 热点 进行 
了 研究 191。 何 波 等 基于 复杂 网 络 理论 对 中 国 经 理 人 领域 28 年 研究 的 演变 趋势 进行 了 研究 1。 
在 绿色 消费 方面 ， 尽 管 有 学 者 基于 复杂 网 络 分 析 方 法 对 绿色 消费 理念 传播 等 问题 进行 了 人 研究 ， 
然而 就 绿色 消费 研究 文献 的 挖掘 非常 少 。 社 会 网 络 分 析 是 复杂 网 络 相 关 知 识 在 社会 关系 系统 中 
的 应 用 ， 刘 永 胜 等 基于 社会 网 络 的 视角 对 我 国 绿色 食品 领域 研究 现状 与 趋势 进行 了 分 析 Us 
杜 先入 等 基于 社会 网 络 分 析 和 共 词 分 析 对 我 国 绿色 消费 行为 领域 研究 热点 和 主题 趋势 进行 了 研 
25s 

综 上 ,复杂 网 络 作为 一 种 典型 的 文献 挖掘 方法 ,被 广泛 应 用 于 各 学 科 文 献 数 据 研 究 中 。 不 过 
在 绿色 消费 相关 文献 的 挖掘 中 应 用 并 不 多 。 通 过 对 相关 人 研究 文献 的 梳理 ， 笔 者 认为 ， 当 前 的 研究 
还 存在 两 方面 不 足 : 

一 方面 ， 绝 大 部 分 学 者 以 文献 关键 词 直接 作为 文献 主题 词 进行 文献 挖 气 '” 51， 而 文献 关 
键 词 具 有 主观 性 和 语义 模糊 性 '”1; 也 有 学 者 将 文献 的 标题 、 摘 要 、 关 键 词 等 内 容 合并 作为 
分 析 数 据 进 行文 献 挖 气 '*”l， 但 是 其 将 以 上 内 容 作 为 “整体 ”进行 分 析 。 笔 者 认为 ， 标 题 、 摘 
要 、 关 键 词 等 在 反映 文献 主题 时 的 重要 性 ， 即 权重 应 有 所 差异 。 因 此 ， 本 文 提出 应 综合 考虑 
文献 标题 、 摘 要 和 关键 词 ， 采 用 文本 分 词 技 术 提 取 文 献 主 题词 ， 进 一 步 基 于 AHP 法 (Analytic 
Hierarchy Process ) 确定 二 元 主题 词组 的 共 现 权重 ， 该 权重 直接 影响 最 终 主 题词 网 络 构建 时 边 的 
权重 。 

男 一 方面 ， 为 了 排除 大 量 低频 主题 词 的 干扰 ， 学 者 们 一 般 仅 将 高 频 主题 词 作为 分 析 依 据 。 而 
关于 高 频 主题 词 数量 的 确定 ， 不 少 学 者 依据 经 验 确 定 ' 六 Y.%1|， 该 方法 缺乏 理论 指导 ， 具 有 一 
定 主观 性 。 为 了 避免 这 种 主观 性 的 缺陷 ， 杨 爱 青 等 基于 学 者 影响 力 g 指数 提出 了 词 频 g 指数 ， 其 
核心 思想 是 当 且 仅 当 研究 主题 的 关键 词 总 量 X 中 ， 有 8g 个 关键 词 的 累计 频次 不 少 于 g K, m 
gtl 个 关键 词 的 累计 频次 少 于 ( g+1) 2 次 ， 此 时 的 g 为 词 频 g 指数 :5 。 可 以 看 出 ， 词 频 g 指数 
的 核心 是 以 主题 词 出 现 的 频次 为 依据 。 然 而 ， 根 据 文本 挖掘 领域 的 经 典 算 法 TF-IDF 算法 (Term 
Frequency-Inverse Document Frequency ) 的 思想 ， 在 文本 挖掘 实践 中 ， 主 题词 中 存在 很 多 “高 频 泛 
词 ” ， 即 出 现 频 次 虽然 很 高 ， 但 是 其 业务 含义 较 弱 。 以 本 研究 为 例 ， 仅 从 词 频 来 看 “绿色 消费 ” 
出 现 频次 很 高 ， 但 对 于 分 析 该 领域 的 具体 研究 主题 而 言 ， 该 主题 词 并 不 能 有 效 反映 该 领域 的 具体 
研究 主题 ， 即 可 视 为 高 频 泛 词 。 鉴 于 此 ， 本 文 基于 TF-IDF 算法 ， 对 词 频 g 指数 进行 改进 ， 并 提 
出 了 TI-g 指数 ， 以 弥补 传统 词 频 g 指数 可 能 存在 高 频 泛 词 的 不 足 。 


本 研究 基于 文本 挖掘 技术 以 及 复杂 网 络 、AHP 层次 分 析 等 理论 ， 对 绿色 消费 领域 研究 主题 
进行 挖掘， 研究 思路 与 框架 如 图 1 所 示 。 
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基于 复杂 网 络 的 
MESURES 研究 主题 控 据 


文献 采集 与 
预 处 理 


pa eu sx MEE E 高 频 主 题词 筛选 


初始 EE TfidfModel££fz , 
主题 词 集 计算 每 个 主题 词 的 
TF-IDF 值 


构建 二 元 主题 词组 aE 主题 词 
(SH1, SH2) 共 现 网 络 


s EREN 
确定 (SH1, SH2) 主题 词 共 


络 特 性 
共 现 权重 系数 E B 


NoteExpress 


未 登录 词 | ,| 标题 |， 计算 词 频 TI-g 指 数 


数据 集成 


构建 三 元 主题 词组 主题 词 社区 
(SH1, SH2, W) 


确定 高 频 主 题词 集 


1 研究 思路 与 框架 


2. ”文献 采集 与 预 处 理 

本 文 在 知 网 、 万 方 、 维 普 数 据 库 中 以 “绿色 消费 ”及 “绿色 购买 ”为 关键 词 ， 采 用 “篇 
关 摘 ”精确 模式 ， 检 索 该 领域 2010 年 1 月 1 日 至 2022 年 12 月 31 日 发 表 的 相关 学 术 文 
献 ， 并 对 文献 数据 进行 合并 、 去 重 、 格 式 规范 化 等 处 理 ， 获 得 文献 7318 篇 。 随 后 ， 针 对 文 
献 集中 存在 的 部 分 特征 缺失 、 重 复 及 异常 等 问题 ,采用 Pandas 进行 数据 清洗 ， 并 剔除 了 新 
闻 宣 传 、 行 业 活动 、 征 稿 启 事 等 非 学 术 文献 ， 再 经 过 进一步 人 工 核 对 ， 最 终 获 得 有 效 文献 
4901 篇 。 


2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 (年 份 ) 


2 2010-2022 年 我 国 绿色 消费 领域 文献 数量 


年 度 发 文 数量 如 图 2 所 示 ， 可 以 看 出 ，2010 年 以 来 ， 我 国 绿色 消费 领域 文献 数量 总 体 相对 
平稳 ， 绿 色 消 费 领域 一 直 是 我 国学 者 的 研究 重点 之 一 。 

2.2 文本 分 词 及 主题 词 提取 

文献 关键 词 本 身 即 为 相互 独立 的 词语 ， 而 文献 标题 和 摘要 则 需要 进行 文本 分 词 。 本 文采 用 
jieba.lcut ( ) 方法 对 文献 标题 和 摘要 进行 文本 分 词 。 在 文本 分 词 中 ， 针 对 停 用 词 ， 如 “研究 ”“ 对 
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策 ” “建议 ”等 ， 综 合 百度 、 哈 工大 、 四 川 大 学 等 停 用 词 库 及 自 定 义 停 用 词 库 进行 过 滤 处 理 。 针 
对 未 登录 词 ， 综 合 拆 分 后 的 关键 词 集 以 及 主流 输入 法 词 库 ， 如 百度 输入 法 、 搜 狗 输入 法 、QQ 
输入 法 等 ， 以 及 自 定 义 词 等 汇总 形成 未 登录 词 集 。 最 后 ， 将 近义词 、 同 义 词 ， 如 “大 学 生 ” 和 
“高 校 学 生 ”、“ 当 代 大 学 生 ”,“ 绿 色 消 费 行为 ”和 “顾客 绿色 消费 行为 ”等 进行 奉 换 后 ， 共 获得 
18007 个 主题 词 。 

2.3 高 频 主题 词 筛选 

每 个 主题 词 在 文献 集中 出 现 的 频次 不 同 ， 如 “绿色 消费 理念 ”出 现 频次 最 高 ， 为 4921 次 。 
统计 显示 ， 前 3566 个 主题 词 累计 频次 占 比 达 到 了 80%， 而 其 余 14441 个 主题 词 累计 频次 占 比 为 
20%， 且 频次 低 于 6 次 。 因 此 ， 在 实证 研究 中 ， 并 不 需要 对 文献 集中 所 有 主题 词 进行 研究 ， 一 般 
仅 对 高 频 主 题词 进行 研究 。 

如 前 文 所 述 ， 本 文 认为 ， 高 频 主 题词 的 选取 可 基于 TF-IDF 算法 ， 对 传统 词 频 g 指数 进行 优 
化 。 TF-IDF 算法 是 一 种 文本 挖掘 加 权 技 术 ， 可 有 效 避 免 仅 以 词 频 为 基准 来 确定 高 频 主题 词 ， 而 出 
现 无 法 排除 高 频 泛 词 的 问题 。TF-IDF 算法 的 核心 思想 是 ， 主 题词 在 某 篇 文献 中 出 现 的 频次 越 高 ， 
其 权重 越 高 ; 文献 集中 包含 主题 词 的 文献 越 多 ， 其 权重 越 低 :2 。 以 文献 集 乙 = (d; |i 12... n) 
H, W={w,|j=1,2,.. m; RRE D 的 主题 词 集 ，D= {wj eq;|i=1,2,...,7;j=1,2,...,m} 
表示 包含 主题 词 w 的 文献 集 ， 该 主题 词 w 的 TF-IDF 值 如 式 (1) 所 示 。 


mw Np 
(TF - IDF), -—-*lg (1) 
“o ng N51 


其 中 ，mw 表示 主题 词 w, TE CHR d; P HL BEBO, nu, 表示 文献 d; 中 主题 词 的 总 数 ，NDp 表 示 
文献 集 D 中 文献 的 总 数 ， Xp 表示 文献 集 已 中 文献 的 数量 。 

结合 TF-IDF 算法 及 传统 词 频 e 指数 思想 ， 本 文 提出 了 一 种 基于 TF-IDF 算法 的 词 频 g 指数 
计算 方法 的 TI-g 指数 。TI-g 指数 定义 为 : 将 所 有 主题 词 的 TF-IDF 值 由 高 到 低 排序 ， 当 且 仅 当 
有 g 个 主题 词 的 累计 TF-IDF (ERDF g, M gel 个 主题 词 的 累计 TF-IDF 值 少 于 (g+D2 时 ， 前 
g 个 主题 词 为 文献 集 忆 的 高 频 主 题词 。TI-g 指数 计算 流程 如 下 : 

CL) 采用 式 CL) 计算 主题 词 集 W PA 358818] w, ff) TF-IDF 值 。 

(2) 将 主题 词 集 不 中 的 主题 词 w 按 照 TF-IDF 值 降序 排列 ， 记 w, 的 序号 为 x,。 

(3 ) 将 主题 词 w, 的 TF-IDF 值 依次 累加 ， 主 题词 w 的 TF-IDF 累加 和 为 > ，,(TF -IDF) 。 

(4) 计算 主题 词 w, 的 序号 的 平方 ， 即 六 。 | 

(5) 主题 词 w 的 TF-IDF 累加 和 与 其 序号 平方 相 减 ， 当 二 者 差 值 的 绝对 值 最 小 时 ， 此 时 的 序 
号 7 为 TI-g 指数 ， 即 前 7 个 主题 词 为 高 频 主题 词 。TI-g 指数 公式 如 式 〈2 ) 所 示 。 
Yr =IDF) = 六 (2) 
k=1 


TI — g = arg min 


X 
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2.4 构建 三 元 主题 词组 

基于 复杂 网 络 的 文献 研究 主题 挖掘 本 质 上 是 一 种 共 词 分 析 ， 即 将 主题 词 (Subject Headings ) 
两 两 组 合 ， 形 成 二 元 主题 词组 (SH,，SH, )， 然 后 再 遍历 (SH, SH,) 同时 出 现在 文献 aq; 中 的 频 
次 W， 将 该 频次 作为 权重 ， 形 成 三 元 主题 词组 (SH, SH, W), RAIE EN 

如 前 文 所 述 ， 对 某 个 研究 领域 热点 的 挖掘 是 建立 在 单 篇 文献 主题 识别 的 基础 上 ， 一 般 以 关键 
词 这 一 单一 要 素 为 依据 。 但 是 ， 由 于 文献 关键 词 由 作者 自行 提出 ， 具 有 主观 性 和 语义 模糊 性 ， 使 
得 仅 以 文献 关键 词 为 基础 的 词 频 分 析 法 和 共 词 分 析 法 存在 一 定 的 局 限 性 '”i。 鉴 于 此 ， 本 文 将 文 
献 标 题 、 关 键 词 和 摘要 进行 综合 研究 ， 避 人 免 仅 以 关键 词 为 单一 要 素 提取 文献 主题 的 局 限 性 ， 使 文 
献 主题 提取 更 为 完整 、 可 靠 。 

根据 排列 组 合 可 知 ， 主 题词 SH, 和 SH 在 同一 篇 文献 的 标题 、 摘 要 和 关键 词 中 的 共 现 情形 
有 6 种 ,不 同 的 共 现 情形 权重 不 同 。 为 了 确定 主题 词组 在 不 同情 形 下 同时 出 现 的 权重 ， 本 文采 用 
AHP 法 ， 利 用 专门 进行 AHP 分 析 的 工具 yaahp 生成 AHP 调查 软件 ， 并 邀请 12 位 专家 通过 此 软件 ， 
采用 “1-9” 标 度 法 判断 矩阵 评分 ( 专家 评分 一 致 性 系数 CR 为 0.0176 )， 确 定 了 标题 、 关 键 词 及 
摘要 与 文献 主题 之 间 的 权重 关系 ， 分 别 为 0.47 (mw )、0.34 Cw). 0.19 Cw )， 并 据 此 计算 出 二 元 
主题 词组 (SH, SH,) 在 不 同情 形 下 的 共 现 权重 系数 ， 如 表 1 所 示 。 


表 1 二 元 主题 词组 共 现 权重 


E, 权重 系数 本 文 取 什 


wa SH,. SH, 同时 出 现在 一 篇 文献 的 标题 中 w, *w, 0.38 
em SH,. SH, 同时 出 现在 一 篇 文献 的 关键 词 中 Wy * wj 0.26 
Waa SH,. SH, 同时 出 现在 一 篇 文献 的 摘要 中 wa * Wa 0.13 
m" SH,. SH, 同时 出 现在 一 篇 文献 的 标题 和 关键 词 中 w,* wy 0.11 
ien SH,. SH, 同时 出 现在 一 篇 文献 的 标题 和 摘要 中 w * Wa 0.07 
Wa SH,. SH, 同时 出 现在 一 篇 文献 的 关键 词 和 摘要 中 Wy * wa 0.05 


因此 ， 三 元 主题 词组 (SH,, SH, W) 的 权重 丈 如 下 式 (3) 所 示 ， 其 中 为 共 现 频次 。 
W -Xw,*n(i-t,t;k,k;a,a;t,k;t,a;k,a) (3) 


2.5 基于 复杂 网 络 的 研究 主题 挖掘 

文献 热点 不 是 由 单个 主题 词 构成 ， 而 是 由 一 组 紧密 连接 的 点 组 成 ， 这 与 复杂 网 络 中 社区 的 概 
念 相 似 ' 2。 因此 ， 可 以 使 用 复杂 网 络 中 社区 发 现 算法 迭 掘 文献 热点 。 通 过 对 复杂 网 络 小 世界 特 
性 及 无 标 度 特性 的 分 析 ， 可 以 了 解 复 杂 网 络 的 特征 ， 模 块 度 Q 值 可 以 评价 社区 划分 的 优 劣 。 

网 络 的 平均 聚 类 系数 越 大 上 且 平 均 路 径 长 度 越 小 ， 则 网 络 的 小 世界 特性 越 明 显 。 在 实际 分 析 
中 ， 一 般 与 相同 规模 的 随机 网 络 进行 比较 ， 进 而 判断 网 络 是 否 具备 小 地界 特性 。C,、 志 分 别 表示 
实际 网 络 的 平均 聚 类 系数 、 平 均 路 径 长 度 ; C,、 工 分别 表示 相同 规模 随机 网 络 的 平均 聚 类 系数 、 
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平均 路 径 长 度 。 如 果 满 足 式 (4) 大 于 1， 则 认为 实际 网 络 具备 小 址 界 特性 ， 且 式 〈《4 ) 的 值 越 大 ， 


则 小 世界 特性 越 明显 1 。 
ICA.) en 


HP Ck) 表示 网 络 中 度 为 的 三 点 出 现 的 频率 ， 如 果 P(k) 服从 震 律 分 布 ， 则 网 络 具有 无 
标 度 特性 。 该 特性 强调 网 络 方 点 间 资 源 的 不 平等 分 配 ， 式 (5 ) PR y 通常 取 值 为 2~3。 


P(k)o k” (5) 


模块 度 Q 常用 于 评价 社区 划分 的 优 劣 ，Q 的 值 越 接近 于 1， 表 明 网 络 的 社区 结构 越 好 ， 具 有 
明显 社区 结构 的 Q 值 一 般 在 0.3~0.7 之 间 C41. 


l kik; x 
o- 二 24- 22 jo (6) 


T 


A C6) F, m 表示 网 络 中 边 的 总 数 ， 即 节点 间 边 权重 总 和 ; 4 是 由 节点 i 和 j 之 间 边 权重 
构成 的 邻接 矩阵 ;石和 记分 别 表 示 贡 点 守 和 和 点 7 的 度 ; 当 和 7 处 于 同一 个 社区 时 ，5G 旋 为 1， 
否则 为 0。 


EA 


3 我国 绿色 消费 领域 研究 主题 挖掘 


3.4 我 国 绿色 消费 领域 研究 主题 演进 
基于 本 文 提出 的 TI-g 指数 ， 对 2010-2022 年 期 间 绿色 消费 领域 的 学 术 文 献 进行 高 频 主题 词 
挖掘， 并 通过 热力 图 对 研究 主题 的 演进 情况 进行 可 视 化 展示 ， 如 图 3 所 示 。 


" 1.0 
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0 
0 
0. 0.8 
0. 
0 
0. 
0.4 0.6 
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0.2. 0. 0 
$1 0.8 
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3 2010~2022 年 我 国 绿色 消费 领域 研究 主题 演进 
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总 体 而 言 ， 绿 色 营 销 、 低 碳 经 济 、 绿 色 消 费 理 念 、 生 态 文明 等 一 直 是 我 国 绿色 消费 领域 研究 
的 热点 。 此 外 ，2016 年 以 前 ， 我 国 绿色 消费 领域 研究 主要 以 基础 理念 为 主 〈 图 3 AEE), WR 
意 多 与 环境 相关 ， 如 可 持续 发 展 、 循 环 经 济 、 低 碳 经 济 、 环 境 保护 、 环 境 问 题 以 及 法 律 制 度 等 。 
2016 年 以 后 ， 相 关 人 研究 明显 偏向 于 实务 ( 图 3 右 下 )， 如 绿色 发 展 、 特 定 群 体 〈 如 大 学 生 ) 绿色 
购买 意愿 、 绿 色 购 买 行为 的 影响 因素 等 心理 研究 ， 以 及 绿色 设计 、 绿 色 生 产 、 绿 色 技 术 创 新 等 技 
术 研 究 。 

3.2 ”我 国 绿色 消费 领域 研究 热点 主题 

为 深入 挖掘 近年 来 我 国 绿色 消费 领域 的 研究 热点 ， 在 高 频 主题 词 挖掘 基础 上 ， 基 于 复杂 网 络 
分 析 方法 ， 构 建 了 近 五 年 (2018~2022 ) 我 国 绿色 消费 领域 研究 主题 词 网 络 。 主 题词 网 络 为 无 向 
图 网 络 ， 详 细 网 络 指标 如 表 2 所 示 。 


表 2 ”主题 词 网 络 指标 


数值 634 


3 20751 65.461 30.091 0.103 0.289 0.614 1.906 


3.2.1 主题 词 网 络 特性 分 析 

C1) 小 世界 特性 分 析 

根据 表 2， 主 题词 网 络 平均 聚 类 系数 C, 和 平均 路 径 长 度 忆 分 别 为 0.614、1.906， 而 同等 规模 
下 随机 网 络 的 平均 聚 类 系数 C. 和 平均 路 径 长 度 元 的 等 阶 量 分 别 为 0.104、1.898。 根 据 式 CA) 计 
算 可 知 ，5.879>>1。 因 此 ， 该 主题 词 网 络 具备 小 世界 特性 ， 即 任意 两 个 节点 之 间 的 距离 都 比较 
短 ， 同 时 主题 词 网 络 中 存在 着 一 些 紧 密 相连 的 社区 或 主题 域 。 

(2) 无 标 度 特性 分 析 

主题 词 网 络 节点 度 的 分 布 如 图 4 所 示 ， 在 双 对 数 坐标 系 中 ， 节 点 度 分 布 的 线性 关系 很 弱 ， 线 
性 判定 系数 丸 仅 为 0.292， 说 明 节 点 度 的 分 布 不 服从 窜 律 分 布 ， 即 不 存在 大 量 节 点 具有 和 较 小 度 值 ， 
而 少量 节点 具有 很 大 的 度 值 。 根 据 式 CS) 可 知 ， 主 题词 网 络 不 具备 无 标 度 特性 ， 即 主题 词 网 络 
中 大 多 数 节 点 连接 数 相 当 ， 没 有 明显 的 “超级 节点 ”。 


普通 坐标 系 双 对 数 坐标 系 


0 100 200 300 400 500 600 10! 10? 
节点 的 度 值 节点 的 度 值 


图 4 主题 词 网 络 节点 度 的 分 布 
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3.2.2 主题 词 网 络 社区 发 现 与 分 析 

本 文采 用 Gephi 进行 社区 划分 ， 并 采用 OpenOrd 算法 进行 可 视 化 布局 。 在 标准 解析 度 下 ， 共 
划分 出 4 个 社区 〈 用 4 种 颜色 表示 )， 如 图 5 所 示 。 基 于 Gephi 默认 的 Blondel V D 等 人 提出 的 算 
法 1， 社区 划分 优 劣 评价 指标 模块 度 Q 值 为 0.289， 根 据 社区 可 视 化 效果 以 及 式 (6) np, x 
题词 网 络 不 具备 明显 的 社区 结构 ， 各 研究 主题 域 的 交叉 融合 较 多 ， 没 有 形成 相对 清晰 、 独 立 的 研 
究 体 系 和 方向 。 尽 管 如 此 ， 总 体 上 仍 可 以 将 绿色 消费 领域 研究 热点 分 为 4 个 主题 域 ， 各 主题 域 核 
心 主 题词 如 表 3 所 示 。 


图 5 主题 词 网 络 社区 可 视 化 全 景 


表 3 各 研究 主题 域 核 心 主题 词 


主题 域 占 比 核心 主题 词 ( 节点 度 大 小 排名 前 15-20 ) 主题 域 定义 


绿色 消费 行为 、 绿 色 营 销 、 绿 色 产 品 、 中 介 作 用 、 影 响 因素 、 结 
构 方 程 模型 、 回 归 分 析 、 计 划 行 为 理论 、 感 知 价值 、 收 入 水 平 、 


1 2099 主观 规范 、 消 费 者 环保 意识 、 因 子 分 析 、 绿 色 消费 态度 、 感 知行 ” 绿色 消费 驱动 头 素 研究 
为 控制 、 宣 传 力度 
绿色 消费 理念 .可 持续 发 展 绿色 发 展 生态 文明 .绿色 生活 方式 、 " H 
2 320% ESI AWEK BARELESM KEE gemaan COH OURR 


建设 美丽 中 国 、 绿 色 文化 、 五 大 发 展 理念 、 乡 村 振兴 、 宣 传教 育 


环境 保护 、 环 境 问 题 、 绿 色 生 产 、 法 律 制度 、 绿 色 技 术 创 新 、 低 
碳 经 济 、 产 业 结构 、 政 府 绿色 采购 、 绿 色 供 应 链 、 绿 色 创 新 、 绿 ”绿色 消费 相关 制度 机 制 


? 42.52% 色 产业 、 绿 色 设计 、 创 新 能 力 、 政 策 支 持 、 公 众 参与 、 评 价 指标 、 研究 
博弈 模型 、 激 励 机 制 、 环 境 绩效 
siea 经 济 可 持续 发 展 、 服 务 消费 、 双 循环 、 消 费 结构 、 绿 色 农业 、 绿 


色 消费 信贷 、 旅 游 消费 金融 、 知 识 产权 其 他 研究 


根据 各 主题 域 核心 主题 词 ， 将 其 依次 定义 为 : 绿色 消费 驱动 因素 研究 、 绿 色 消 费 价 值 观 培育 
研究 、 绿 色 消 费 相 关 制 度 机 制 研究 以 及 其 他 研究 。 

绿色 消费 驱动 因素 研究 主要 是 研究 消费 者 的 绿色 消费 行为 、 绿 色 生 活 方式 是 如 何 形成 的 ， 其 
驱动 因素 有 哪些 。 驱 动因 素 既 包括 内 因 ， 如 感知 价值 、 收 入 水 平 、 消 费 者 环保 意识 等 ， 也 包括 外 
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因 ， 如 主观 规范 、 宣 传 力度 等 。 

绿色 消费 价值 观 培育 研究 主要 是 研究 消费 者 ， 尤 其 是 特定 消费 群体 ， 如 大 学 生 、 高 中 生 等 未 
来 消费 主体 ， 对 绿色 消费 、 人 与 自然 等 理念 的 认 知 及 宣传 、 教 育 、 培 养 等 ， 其 间 融 合 了 马克 思 主 
义 生 态 观 、 思 想 政治 教育 、 乡 村 振兴 等 概念 。 进 一 步 研 究 文献 发 现 ， 该 领域 研究 更 多 侧重 于 价值 
观 培育 的 意义 、 形 式 、 方 法 等 层面 ， 而 对 于 培育 的 效果 评价 研究 较 少 。 

绿色 消费 相关 制度 机 制 研究 主要 是 研究 绿色 消费 与 环境 的 关系 ,绿色 消费 相关 的 法 律 制 度 、 
税收 制度 、 评 价 指标 、 激 励 机 制 以 及 相关 技术 创新 机 制 等 。 

其 他 研究 则 是 绿色 消费 理念 在 其 他 领域 的 应 用 研究 ， 如 绿色 消费 信贷 、 绿 色 消 费 金融 等 。 


4 总 结 


本 文 基于 文本 挖掘 技术 和 复杂 网 络 分 析 方法 ， 进 行 了 针对 性 的 优化 创新 后 ， 对 2010 年 以 来 
我 国 绿色 消费 领域 研究 主题 演进 以 及 2018 年 以 来 绿色 消费 领域 研究 热点 的 挖 气 ， 可 为 其 他 学 者 
进一步 研究 提供 参考 。 

在 研究 方法 层面 ， 针 对 同类 人 研究 大 多 直接 以 文献 关键 词 作为 文献 主题 词 存 在 的 主观 性 和 语义 
模糊 性 ， 本 文 提 出 “综合 考虑 文献 标题 、 摘 要 和 关键 词 ， 采 用 文本 分 词 技术 提取 文献 主题 词 ， 并 
基于 AHP 法 确定 二 元 主题 词组 共 现 权重 ”的 研究 方法 。 针 对 传统 词 频 g 指数 无 法 有 效 排除 “高 
频 泛 词 ”的 情况 ,本文 基 于 TF-IDF 算法 对 传统 词 频 g 指数 进行 优化 ， 提 出 TI-g 指数 ， 弥 补 了 传 
统 词 频 g 指数 的 不 足 。 

在 实证 研究 层面 ， 针 对 绿色 消费 领域 研究 主题 ， 本 文 认为 : 

(1) 2016 年 以 前 ,我 国 绿色 消费 领域 研究 主要 以 基础 理念 为 主 ， 人 研究 立意 更 多 与 环境 相关 ， 
如 可 持续 发 展 、 循 环 经 济 、 环 境 保 护 、 环 境 问 题 以 及 法 律 制度 等 。2016 年 以 后 ， 相 关 人 研究 则 更 
明显 偏向 于 实务 ， 如 绿色 经 济 发 展 、 特 定 群 体 ( 如 大 学 生 ) 绿色 购买 意愿 、 绿 色 购 买 行为 相关 的 
影响 因素 、 绿 色 设计 、 绿 色 生产 与 绿色 技术 创新 。 

(2) 2018 年 以 来 ,我国 绿色 消费 领域 研究 总 体 可 分 为 绿色 消费 驱动 因素 研究 、 绿 色 消 费 
价值 观 培育 研究 、 绿 色 消 费 相 关 制 度 机 制 研 究 以 及 其 他 研究 四 个 主题 域 。 但 是 ， 根 据 复杂 网 络 
分 析 方 法 ， 以 上 四 个 主题 域 社区 结构 不 明显 ， 且 不 具有 了 明显 的 无 标 度 性 。 因 此 ， 安 观 来 看 ， 未 
来 各 主题 域 应 该 加 强 研究 深度 ， 在 研究 方法 和 跨 学 科研 究 上 做 更 多 探索 ， 形 成 更 加 完善 的 研究 
体系 。 

(3) 微观 来 看 ， 各 主题 域 研究 还 存在 一 定 研究 不 足 ， 例 如 : 在 绿色 消费 驱动 因素 研究 主题 域 
中 ， 人 研究 方法 、 理 论 和 模型 过 于 统一 ， 如 大 部 分 研究 均 使 用 SEM 结构 方程 模型 或 其 他 传统 统计 
学 方法 ， 缺 少 如 文本 挖 气 、 情 感 分 析 、 与 情 分 析 等 更 为 前 沿 的 大 数据 相关 技术 进行 研究 ; 绿色 消 
费 价值 观 培育 研究 中 ， 基 于 人 群 特征 的 差异 化 绿色 消费 价值 观 培育 方式 和 评价 方式 研究 不 足 ; 此 
外 ， 如 何 形 成 和 完善 绿色 消费 相关 的 法 律 法 规 、 税 收 政策 等 体制 机 制 问 题 ， 以 及 绿色 技术 、 绿 色 
生产 、 绿 色 设计 等 实务 问题 ， 同 样 需要 深入 研究 。 
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Mining of Research Topics of Green 
Consumption in China Based on Text 
Mining and Complex Network 


LiuJieping Xu Jinya 


(Chengdu Neusoft University, Chengdu 611844, China) 


Abstract: [ Purpose/significance ] A fundamental goal of China's 14th Five-Year Plan and Vision 2035 is to 
promote *green consumption". Identifying research topics 1s essential because it facilitates staying up-to-date 
with the latest developments and trends in the field of green consumption, providing indispensable guidance 
for future studies. [ Method/process ] Our proposed method comprehensively considers the literature title, 
abstract, and keywords using text mining and complex network theories. Our method involves utilizing text 
word segmentation technology to extract subject headings and employing the Analytic Hierarchy Process 
(AHP) to determine the co-occurrence weight of two-tuple subject phrases. We provide the TI-g index as a 
proposal by optimizing the traditional word frequency g index through the inclusion of the Term Frequency- 
Inverse Document Frequency (TF-IDF) algorithm because the word frequency g index is ineffective at filtering 
out "high-frequency generic words." This study focuses on academic literature on green consumption in the 
period of 2010 to 2022 in China. [ Result/conclusion ] A heatmap was generated to display shifts in research 
topics since 2010, complemented by the identification of recent hotspots of research in this field since 2018. 
Our analysis identified four major subject fields and highlighted the research limitations present in each. 

Keywords: Green consumption; Research hotspot; Text mining; Complex network; TF-IDF; Word frequency 


g index 
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